Traduction automatique statistique à partir de corpus comparables : application aux couples de langues arabe-français
نویسندگان
چکیده
The present research aims to exploit comparable corpora for Statistical Machine Translation (SMT). First, a hybrid approach based on statistical and linguistics-based information is proposed for bilingual terminology extraction from Wikipedia documents. Then, we propose a hybrid approach based on length and dictionary model for the alignment of the United Nations (UN) corpus at the sentence level. In order to validate the proposed approaches, we conducted evaluations on Arabic-French SMT. We evaluation showed significant improvement in term of BLEU scores when using these two approaches as well as a pre-processing technique, on the source language (Arabic). MOTS-CLÉS : Traduction Automatique Statistique (TAS), corpus comparable, Wikipédia, arabe-français.
منابع مشابه
Les Triggers Inter-langues pour la Traduction Automatique Statistique. (Inter-lingual Triggers for Statistical Machine Translation)
Dans cet article, nous décrivons le concept de triggers inter-langues. Nous expliquons ensuite comment nous avons utilisé de tels triggers pour construire automatiquement un dictionnaire bilingue. Nous avons par la suite évalué notre dictionnaire bilingue en le comparant à deux dictionnaires existants, le premier fourni par ELRA et le second en libre accès sur Internet. Cependant, afin de rendr...
متن کاملSystème de traduction automatique statistique Anglais-Arabe
La traduction automatique (TA) est le processus qui consiste à traduire un texte rédigé dans une langue source vers un texte dans une langue cible. Dans cet article, nous présentons notre système de traduction automatique statistique anglais-arabe. Dans un premier temps, nous présentons le processus général pour mettre en place un système de traduction automatique statistique, ensuite nous décr...
متن کاملTraduction automatique de termes biomédicaux pour la recherche d'information interlingue
RÉSUMÉ. Dans cet article, nous présentons une méthode de traduction automatique de termes biomédicaux. Cette méthode s’appuie sur une technique originale d’apprentissage supervisé de règles de réécriture et sur l’utilisation de modèles de langue. Les évaluations présentées montrent que notre technique est très performante et permet de traduire à partir et à destination de n’importe quelle langu...
متن کاملA Methodology for semi-automatic structuring of a bilingual lexicographical corpus: the French-Kabyle case (Méthodologie pour la structuration semi-automatique du corpus dans une perspective de traitement automatique des langues : le cas du dictionnaire français-kabyle) [in French]
Résumé L’objectif de cette contribution est de proposer une méthodologie nouvelle de structuration de corpus à l’aide d’outils informatiques récents permettant aux linguistes non-spécialistes en informatique de constituer des corpus structurés en vue de leur exploration par des outils de traitement automatique des langues naturelles. Il s’agit, plus exactement, de présenter le processus d’infor...
متن کاملPost-édition statistique pour l'adaptation aux domaines de spécialité en traduction automatique (Statistical Post-Editing of Machine Translation for Domain Adaptation) [in French]
RÉSUMÉ Cet article présente une approche de post-édition statistique pour adapter aux domaines de spécialité des systèmes de traduction automatique génériques. En utilisant les traductions produites par ces systèmes, alignées avec leur traduction de référence, un modèle de post-édition basé sur un alignement sous-phrastique est construit. Les expériences menées entre le français et l’anglais po...
متن کامل